#interfaces híbridas

WeaveBench: Benchmark realista de largo horizonte para agentes híbridos

Descubre WeaveBench, el nuevo benchmark que evalúa agentes de IA en tareas híbridas de GUI, CLI y código a largo plazo. Solo el 41.2% de éxito revela una brecha crítica.

2026-06-09 · 1 min